沙龙回顾|刘晓蕾教授:机器学习与实证研究方法
光华BA学术大咖秀
2019年10月25日下午,北京大学光华管理学院2019级商业分析硕士学术沙龙委员会邀请到金融学系刘晓蕾教授,为同学们带来了以“机器学习与实证研究方法”为主题的学术沙龙活动。
No.1
相关性与因果性
请同学们先思考这样一个问题:
『现在有一个关注开会次数与公司绩效关系的研究,假设我们模型建立正确,没有遗漏重要变量,通过回归分析我们也的确发现了开会次数越多的企业,绩效越差,那我们可以得到开会降低了公司绩效的结论吗?』
答案是不能,这个例子其实涉及的是自选择问题,因为只有绩效差的公司才需要频繁开会讨论去解决绩效问题,而绩效好的公司是不需要开会的。
刘晓蕾教授用这一个问题引入了实证研究中关于相关性与因果性的讨论。
*实证研究是经济、金融领域常用的一种研究方法,在实证研究中时常会使用到数据分析的思路。
刘晓蕾教授讲述回归分析的思路
尽管很多的经济现象可以通过回归的方式来解释,但哪怕是加入更多的解释变量,这样的模型也存在一些潜在的缺陷:
①遗漏变量(omitted variable),存在与Y相关但被遗漏的变量。
②反向因果(reverse causality),Y和X间存在反向因果关系。
在这里产生了一个非常重要非常值得探讨的问题,统计模型偏向解释相关关系,而经济学更想要得到现象背后的因果关系(Causality)。毫无疑问,在实证研究中若上述缺陷不得到解决,将难以得到可信度高的结论。因此如何筛选合适的样本,运用怎样的模型设计方案变得尤为重要。
No.2
解决方案
刘晓蕾教授介绍了六个解决上述问题的可行方案:
1.双胞胎(Twins)。双胞胎的生理条件、成长环境基本一致,可尽量减少无法观察到变量间的差异,但缺点在于很难收集足够的样本。
2.随机实验方法(Randomized Controlled Trial)。尽管个体间总有差异,但在随机抽样,样本量足够大的情况下,根据“大数定律”可消除这种差异所带来的影响。
3.自然实验(Natural Experiment)。在无法进行随机抽样时,可以通过“自然”的手段,替我们做出选择。但一般研究对象是某项具体的政策,研究对不同地域之间造成的影响。
4.工具变量(IV)。寻找一个与X高度相关却与Y不相关的工具变量,解决反向因果关系带来的问题。
5.断点回归设计(RDD)。例如,想要研究北大的教育是否对一个学生的成长带来显著提升,但能考上北大的学生个人素质本就很高,无法解释北大对学生的成长的贡献为多少。不妨设北大的分数线为650分,可认为651分与649分学生个人素质相差无几,在此基础上模型具有更强的解释性。
6.结构估计(Structural Estimation)。先构建一个模型,用模型模拟生成一些数据,再用真实数据与之结合,调整模型的参数。但缺点在于表现高度依赖于模型本身。
No.3
机器学习
刘晓蕾教授讲述机器学习在实证研究中的应用场景
随后,刘晓蕾教授机器学习在实证研究中的主要应用场景。首先是自然语言处理NLP的运用,例如在大量的财务报表中,可挖掘财报中的关键词,判断公司是否存在潜在的风险。其次是非线性估计的引入,传统回归模型中,如果引入变量过多,容易导致共线性,而非线性方法可以通过降维方法,处理高维数据,增强模型解释效果。此外,Topic分类方法可以用于文章分类上,便于学者进一步的解读。
当然,机器学习方法也有自身的局限性,在构建机器学习模型的过程中会掺入很多主观调参的过程,因此可以人为地操控实验结果。
师生互动Q&A环节
在沙龙的最后,刘晓蕾教授总结道,机器学习、实证研究都只是研究道路上的一个具体方法,但比实证更重要的是所研究的问题。我们更应该关注研究的问题是否重要。中国改革开放取得了举世瞩目的经济奇迹,但还有很多亟待解决的问题,需要我们不断研究新的观点和理论去解释这些经济现象。
意犹未尽?请持续关注北大光华商业分析公众号,未来会有更多精彩活动内容推出!